1. 福建师范大学数学与信息学院,福州 350022;
2. 福建农林大学数学与计算机科学学院,福州
350007
摘 要:研究表明大地震之前由于地表温度的变化会引起长波辐射OLR(Outgoing Longwave Radiation)数据异常,但目前缺乏有效的技术来提取异常。我们提出了一种基于随机传感器和鞅理论的异常数据挖掘算法ADRM(Abnormality Detection based on Randomized Transducer and
Power Martingales),经过实验对比能有效挖掘异常。本数据集记录了尼泊尔地区2009–2018年10年间的NOAA卫星的OLR数据和经过异常数据挖掘后的相应数据序列。数据集在地域上,以尼泊尔地震震中为中心的周边地域划分为同样经纬度2.5°×2.5°为单位的25个网格;时间上,定义每个年度是从上一年的9月28日到下一年的9月28日,共计366天,2009–2018年10年的数据。数据集存储为1个.xls文件,数据量为3.92 MB。基于该数据集的研究成果分别发表在《地球信息科学学报》(2018年20卷8期)和《IEEE Journal of Selected Topics in Applied
Earth Observations and Remote Sensing》(2018年11卷8期)。
关键词:OLR;尼泊尔;数据挖掘;异常信号;地球信息科学学报;IEEE Journal of Selected Topics in Applied Earth Observations and
Remote Sensing
DOI: 10.3974/geodp.2020.01.06
地震的发生常常伴随有地热辐射增强的现象,而这些震前在孕震区出现的地标温度增高的数据可以被热红外遥感卫星所监测[1]。长波辐射数据(Outgoing Longwave Radiation,OLR)指地气系统向外层空间发射的电磁波能量密度,震前的岩石圈的压力增加导致地表岩石温度及其环境温度的上升,经过大气层会受到云层、温室效应的影响,这样大面积的地表温度的变化引起OLR辐射的波动情况,可以被热红外遥感卫星所捕获[2]。美国极轨式NOAA卫星与太阳轨道同步捕获OLR数据后,对该遥测数据进行多次空间平均,最后提供按经纬网格2.5×2.5间距的全球逐日平均和逐月平均的OLR数据。人为生产活动、气候变化和温室效应等都可能产生这种温度的变化,再加上地表温度、大气温度、水汽、云量等的影响,因此OLR数据是有噪声、非结构化和鲁棒性的,需要通过统计学原理和数据挖掘技术,提取数据中隐含的异常信号和震前的征兆。许多国内外的学者在此项研究中提出了许多方法进行研究,例如小波变换、贝叶斯估计方法、模糊神经算法和基于误差和关键点的地震前兆观测数据异常挖掘等,但这些技术大多缺乏有效的技术来提取与地震相关的异常变化趋势等信息,且大多数的遥感数据并没有被充分利用[3–9]。我们提出一种基于随机传感器和幂鞅的OLR数据异常信号分析算法ADRM(Abnormality Detection based on Randomized Transducer and Power Martingales)对OLR源数据进行异常信号数据挖掘技术,可以有效获取异常信号的变化,并形成新的异常捕获后的数据序列。本数据集进行主要针对2009–2018年期间的OLR数据,地域范围是以尼泊尔2015年4月25日7.8级大地震震中(28.23°N,84.73°E)为中心的矩形区域,经纬度坐标是从(28.23°N,84.73°E)到(28.23°N,84.73°E)的地区10年数据OLR数据进行ADRM异常信号提取后的结果形成的数据集。
《2009-2018年间尼泊尔地区OLR异常信号数据集》[10]的名称、作者、地理区域、数据年代、时间分辨率、空间分辨率、数据集组成、数据出版与共享平台、数据共享政策等信息见表1。
表1 《2009–2018年间尼泊尔地区OLR异常信号数据集》元数据简表
条目 |
描述 |
|
数据集名称 |
2009–2018年间尼泊尔地区OLR异常信号数据集 |
|
数据集短名 |
OLRAbnormalSignalNepal_2009-2018 |
|
作者信息 |
林岭AAB-6198-2019, 福建师范大学数学与信息学院, linling@fjnu.edu.cn 孔祥增AAI-1869-2019, 福建师范大学数学与信息学院, xzkong_fjnu@163.com 李南AAB-3416-2020, 福建农林大学数学与计算机科学学院, 13509338919@qq.com |
|
地理区域 |
尼泊尔地区 |
|
数据年代 |
2009–2018 |
|
时间分辨率 |
日 |
|
空间分辨率 |
2.5º×2.5º |
|
数据格式 |
.xls |
|
数据量 |
3.92 MB |
|
数据集组成 |
尼泊尔2015年4月25日的Mw7.8地震震中为中心的25个网格覆盖的10年数据。相对网格坐标为(23,32)到(27,36),是2009–2108年的OLR源数据,及其异常获取后的结果数据构成,主要包括:10个Sheet分别是10年的数据;每个Sheet由25个网格的数据构成,每个网格的数据分成源数据(OLR_raw)、经过预处理数据(OLR_prep)和经过异常信息提取后的结果数据(CD_value) |
|
基金项目 |
福建省(2019Y0008);国家自然科学基金(61772004, 41601477) |
|
数据计算环境 |
Matlab |
|
出版与共享服务平台 |
全球变化科学研究数据出版系统http://www.geodoi.ac.cn |
|
地址 |
北京市朝阳区大屯路甲11号100101,中国科学院地理科学与资源研究所 |
续表
条目 |
描述 |
数据共享政策 |
全球变化科学研究数据出版系统的“数据”包括元数据(中英文)、实体数据(中英文)和通过《全球变化数据学报》(中英文)发表的数据论文[11]。其共享政策如下:(1)“数据”以最便利的方式通过互联网系统免费向全社会开放,用户免费浏览、免费下载;(2)最终用户使用“数据”需要按照引用格式在参考文献或适当的位置标注数据来源;(3)增值服务用户或以任何形式散发和传播(包括通过计算机服务器)“数据”的用户需要与《全球变化数据学报》(中英文)编辑部签署书面协议,获得许可;(4)摘取“数据”中的部分记录创作新数据的作者需要遵循10%引用原则,即从本数据集中摘取的数据记录少于新数据集总记录量的10%,同时需要对摘取的数据记录标注数据来源[11] |
数据和论文检索系统 |
DOI,DCI,CSCD,WDS/ISC,GEOSS,China GEOSS,Crossref |
3.1 算法原理
对于OLR数据源我们进行了3步骤的处理:地域网格化划分、数据预处理和异常信号捕获ADRM算法的数据分析。
首先,地域网格化的划分[13]是根据OLR数据特征,以经纬度2.5°×2.5°的网格方式记录数据,并以此为单位对全球地域进行网格化划分。例如,尼泊尔地震震中(28.23°N,84.73°E),其相对坐标值为(25,34),以此坐标值为中心的25个网格为OLR数据研究对象,从左上相对坐标值为(23,32),依据行优先的原则从1到25对网格进行标记顺序号。与数据集的列名相对应,左上角的1号网格相对坐标是(23,32),对应数据集列名是Grid No.1(23,32)。
其次,是对源数据进行预处理。源数据(对应数据集中的OLR_raw列)采用NOAA-14卫星所捕获的OLR数据序列的“下午”(Afternoon
Satellite,1430–0230 LST)的数据,之所以采用下午数据是考虑可以减少因白天的人类活动、噪声和气候等因素造成对数据扰动。
源数据获取后,对数据的预处理如下:
(1)填充缺失数据。缺失1–2天的数据,取前一天数据向后填充;缺失3天(含)以上的数据,则全年的平均值作为该数值。
(2)数据的年统一化,即2月份统一保留为28天,29日的数据删除处理,这样每年的数据就是365天。
(3)噪音的去除。遥感卫星所采集的数据,有时候会出现个别的“小值”或“尖点”等异常数据,当数据小于某一个很小的值或者尖点数据(即不合理数据),则设置该值为年平均值。
经过以上的预处理后,数据集对应的是OLR_prep列的值。
最后,对OLR_prep数据进行的异常信号挖掘,是运用基于鞅理论的ADRM算法对OLR_prep数据变化特征和趋势进行数据挖掘[12–14],生成新的异常信息数据集(CD-value Change Detection)。ADRM算法的原理如下:
定义OLR数据集,为已知的历史数据,则表示当前要检测异常的OLR数值。当地质活动平稳的时候,OLR数据应该表现为相对稳定,样本数据之间表现为某种相似的特征[15]。
给出OLR数据信号的异常度量,设的偏移值为,其中是通过聚类算法得到的的聚类中心,表示距离度量函数,得到初始异常值序列。然后通过对序列进行置信随机传感器映射[16],
(1)
将其映射到的置信空间,其中随机值,是返回满足给定条件的样本的数量。从式(1)可见值越大,表明越符合历史样本的分布情况,当天数据出现异常的可能性越小。然而,OLR数据中会存在“噪声”,某天相对较小的值并不足以说明当前OLR数据整体出现了异常,需要通过使用幂鞅(Power Martingale)理论,综合考虑整个时间序列数据的变化趋势,也就是分析的每个数据所对应的随机化的幂鞅值[17],将其命名为值,公式如下:
(2)
式中,,初始化,并设置ADRM算法数据序列的前50个点作为聚类中心的样本初始中心(数据集[10]中前50个CD_value数据值均为1)。为能平滑OLR数据中可能出现的“噪音”,减少变化趋势数据的误判,对值进行了次的均化平滑处理,最后生成序列值:
(3)
由于大地震发生前后地壳运动相对剧烈,表现为OLR数据有可能在短时间内出现较大波动,反应波动情况的值虽然经过了平滑处理,但是还是可能发生增大到不可控的程度[18]。为避免这种情况的发生,设置一个停止阈值h,当,则停止运算,并在当前的位置重新初始化。
图1 OLR数据异常获取线路图 |
3.2 技术线路
美国国家海洋和大气管理局(NOAA)[12]提供了NOAA卫星的OLR遥感数据,本文选择2009年到2018年10年的OLR数据,对地震地区进行地域数据网格划分数字化之后,形成25个网格分别进行分析。将源数据OLR-raw经过缺失数据处理、规整化和去噪音等预处理之后得到OLR-prep序列,再运用ADRM算法的异常变化趋势的分析得到CD-value数据序列,最后生成数据集的流程和数据情况如图1所示。
4.1 数据集组成
数据集保存为Excel表,由10张Sheet表构成,每张Sheet表的表名代表数据的年份。每张Sheet表是由25组数据构成,每组数据表示相应网格里的OLR源数据、OLR预处理数据和CD-value。列名“Grid No. *(**,**)”的格式,分别表示网格号和相应坐标。例如1号网格的坐标是(23,32),表中的列名为“Grid No.1(23,32)”,每组数据分为4列,第1列是“YYYYMMDD”8位的日期,其他说明如表2所示。
表2 数据集每组数据的属性说明
属性 |
说明 |
备注 |
OLR_raw |
表示来自NOAA的源数据 |
NCAR and NOAA.
Available: ftp ftp.cpc.ncep.noaa.gov; cd precip/ noaa18_olr for OLR data |
OLR_prep |
表示对NOAA源数据进行一些无效数据和 去噪音等预处理后的数据 |
|
CD-value |
异常信息数据集 |
采用ADRM算法进行数据分析后的结果 |
4.2 数据结果
本数据集从地域和时间两个角度组织数据。时间上,定义每个年度是从上一年的9月28日到下一年的9月28日,共计366天(预处理后),对应数据集数据一共366行,存放在一张sheet表中。
地域上,以尼泊尔地震震中(28.23°N,84.73°E)为中心,以经纬度2.5°×2.5°的单位网格化后的邻近地域进行网格划分,震中网格坐标为(25,34),沿着经度纬度方向各外延2个网格形成网格方阵。例如:数据集中Grid No.1编号(23,32)的对应经纬度范围是(31.98°N–34.48°N,78.48°E–80.98°E)。
4.3 数据结果验证
本数据集包含了10年的25个网格的OLR异常数据,这里以13号网格为例进行算法有效性的说明。图2表示一年(2014年9月28日到2015年7月25日)数据对比,图2(a)表示NOAA卫星的OLR原始数据的波动图,肉眼或简单的数据分析很难发现数据的异常变化,通过ADRM算法计算后的CD_value波形图(图2(b)),有效提取异常信息后的数据变化趋势,图中的三条竖线分别表示2014年12月18日、2015年4月25日和2015年5月12日发生在尼泊尔的震级分别为5.0、7.8和7.3的三次地震。地震信息来源为美国地质调查局(USGS)所提供的网络数据资料[19]。
从图中可以看出,三次地震在时间上和震级大小与事件上都与CD值的变化相吻合,其中2015年5月12日的地震震级变小,但是图中变化曲线突增也就是CD值突然变大,这是由于2014年4月25日数据剧烈变化,使得后续数据挖掘变化会更“敏感”而造成的。OLR异常变化发生在地震前的一个月左右,图2(b)中12月18日的地震,在11月20日开始有OLR的异常变化,4月25日的地震则早在2月25日附近就开始出现CD异常值的变化,并随着时间的推移,CD值呈现“爬坡”,总的趋势是不断波动并上扬,并在4月25日7.9级地震的当天CD值达到了顶峰。之后虽然曲线有一些下滑,但是震荡后又开始上扬,直到5月12日尼泊尔又遭遇了一次大的余震,在图2(b)中显示CD值开始陡然走高,在5月12日地震(图中第3条竖线所标示)前夕出现峰值,第二天则发生了震级为7.3级的地震,给当地造成了巨大的损失。之后CD值则迅速滑落,而从实际情况来看尼泊尔虽然不断有小的余震,的确没有再遭遇更大的地震了。这说明通过研究OLR异常信息而捕获
到的CD值序列,可以为地震的预测提供参考。
图2 OLR源数据(a)与CD值(b)的对比图(2014.9.28–2015.9.28)
通过10年CD值的均值与2015年的CD波动图对比,也可以对震前异常进行分析。图3所示红色三角分别表示3次地震发生的时间,黄色波动曲线表示2015年的CD值变化,蓝色曲线表示2009–2018年10年间在网格13的CD均值。通过与均值对比可以发现三次地震发生之前CD值的波动都征兆性的超越了均值。类似地,在地震发生之前的11月20日左右开始CD值超过了均值并地震前两天的12月16日到达顶峰。同样地,震级分别为7.8和7.3的随后两次地震,CD值都捕获到了异常,其值大大的超越了均值并上扬,地震结束后CD值下落,与地震的发生时间比较吻合。
在地域研究上,可以利用CD值进一步研究OLR异常信号与地域之间的关系。首先对2015年25个网格的CD值分别统计震前30天与震后15天的每5天为单元的均值,最后得到如图4所示的均值柱状图,每个柱体对应CD均值,红色竖线是2014年5月12日地震发生时间。通过分析发现,在震中(网格13)的西部临近区域的11、12、16和17网格都呈现了明显的数据异常,而且均在震前一个月左右有较大CD值数据变化,在震中网格13更是呈现变化极值的态势。
将网格和相应的地理位置对照,图4网格的中间横线位于地中海-喜马拉雅地震带上,这一地震带是欧亚板块与非洲板块、印度洋板块的交界区。图4中沿着地震带的中间横轴呈现明显的信号变化趋势,明显在下半部分的信号特征明显,与处于印度板块的挤压情形相符合。与其他行网格的CD均值走势相比较,地震带上的CD均值到达或超过200的柱状体数量最多,尤其是网格11、12、13的CD均值大多在200上下,呈现出异常变化比较大的态势,网格12和13异常特征尤为明显,也符合了其所在的震中和地震带上的地域特点[13]。
图3 CD值10年的均值波动曲线与2015年CD值波动曲线的对比图(2014.9.28–2015.9.28)
图4 地域相关性震前异常的CD值分析
本数据集罗列了尼泊尔地区经纬度从(28.23°N,84.73°E)到(28.23°N,84.73°E)的矩形区域内2009–2018年的OLR源数据和经过ADRM算法异常信号挖掘后的数据序列,地域划分为25个网格,形成[366,25,10]的三维矩阵序列数据集。尼泊尔位于地中海-喜马拉雅地震带,是欧亚板块与非洲板块、印度洋板块的交界区,其地震活动释放的能量占全球地震释放总能量的24%,以尼泊尔为震例从事地震与信号之间的关系研究是具有重要的探索价值的。
本数据集旨在为OLR数据与大地震发生关联研究提供数据依据。用数据挖掘的方法提取出信号中的有用成分,为后续相关的地震预测研究和其他地震相关信号的分析与异常提取,提供进一步的研究思路和数据基础库。
作者分工:林岭对数据集的开发做了总体设计并撰写了数据论文;江晓英采集和处理了OLR数据;孔祥增设计了模型和算法;李南对数据进行验证。
[1]
刘德富, 康春丽. 地球长波辐射(OLR)遥感与重大自然灾害预测[J]. 地学前缘, 2003, 10(2): 427-435.
[2]
Kong, X. Z., Bi, Y. X., Glass, D. Detecting seismic anomalies in outgoing long-wave radiation data [J]. IEEE Journal of
Selected Topics in Applied Earth Observations and Remote Sensing, 2014,
8(2): 649-660.
[3]
郭晓, 张元生, 魏从信等. 汶川8.0级和仲巴6.8级地震中波红外热辐射异常[J]. 地球学报, 2014, 35(3): 338-344.
[4]
Lin, L., Kong, X., Li, N. A martingale-based temporal analysis of
pre-earthquake anomalies at Jiuzhaigou, China, in the period of 2009–2018 [C]. In E3S
Web of Conferences, EDP Sciences, 2019, 131: 01072.
[5]
Saraf, A. K., Choudhury, S. Cover: NOAA-AVHRR detects thermal anomaly
associated with the 26 January 2001 Bhuj earthquake, Gujarat, India [J]. International
Journal of Remote Sensing, 2005, 26(6): 1065-1073.
[6]
Ouzounov, D., Bryant, N., Logan, T., et
al. Satellite thermal IR phenomena associated with some of the major
earthquakes in 1999–2003 [J]. Physics and Chemistry of the Earth, 2006, 31(4):
154-163.
[7]
Tramutoli, V., Cuomo, V., Filizzola, C., et al. Assessing the potential of thermal infrared satellite
surveys for monitoring seismically active areas: The case of Kocaeli (İzmit)
earthquake, August 17, 1999 [J]. Remote Sensing of Environment, 2005,
96(3): 409-426.
[8]
Selva, J., Marzocchi, W., Papale, P., et
al. Operational eruption forecasting at high-risk volcanoes: the case of
Campi Flegrei, Naples [J]. Journal of Applied Volcanology, 2012, 1(1):
5.
[9]
Xiong, P., Bi, Y. X., Shen, X. H. Study of Outgoing Long-wave radiation anomalies
associated with two earthquakes in China using wavelet maxima [C]. HAIS’09 Proceedings of the 4th International
Conference on Hybrid Artificial Intelligence Systems, 2009: 77-87.
[10]
林岭, 孔祥增, 李南. 2009–2018年间尼泊尔地区OLR异常信号数据集[DB/OL]. 全球变化数据仓储, 2019. DOI: 10.3974/geodb.2019.05.11.V1.
[11]
全球变化科学研究数据出版系统. 全球变化科学研究数据共享政策[OL]. DOI:10.3974/dp.policy.2014. 05(2017年更新).
[12]
U. S. Department of Commerce. National oceanic and atmospheric administration
[DB/OL]. ftp://ftp.cpc. necp.noaa.gov/precip/noaa18_olr.
[13]
林岭, 孔祥增, 李南等. 尼泊尔地震的 NOAA 卫星数据震前异常分析[J]. 地球信息科学学报, 2018, 20(8): 1169-1177.
[14]
Intelligence, M., Wechsler, H. A martingale framework for detecting changes
in data streams by testing exchangeability [J]. IEEE Transactions
on Pattern Analysis and Machine Intelligence, 2010, 32(12): 2113-2127.
[15]
Kong, X., Li, N., Lin, L., et al.
Relationship of stress changes and anomalies in OLR data of the Wenchuan and
Lushan earthquakes [J]. IEEE
Journal of Selected Topics in Applied Earth Observations and Remote Sensing,
2018, 11(8): 2966-2976. DOI: 10.1109/JSTARS.2018.2839089.
[16]
Kong, X., Bi, Y., Glass, D. H. Detecting seismic anomalies in outgoing
long-wave radiation data [J]. IEEE Journal of
Selected Topics in Applied Earth Observations and Remote Sensing, 2015, 8(2): 649-660. DOI: 10.1109/JSTARS.2014.2363473.
[17]
Molchan, G., Romashkova, L., Peresan, A. On some methods for assessing
earthquake predictions [J]. Geophysical Journal International, 2017,
210(3): 1474-1480.
[18]
Li, N., Kong, X., Lin, L. Anomalies in continuous GPS data as precursors
of 15 large earthquakes in Western North America during 2007–2016 [J]. Earth
Science Informatics, 2019, 12: 1-12.
[19] USGS [Z].
https://earthquake.usgs.gov/earthquakes/.